2014/11/09

[Data Analytics] 試算表裡的人工智慧:Google 推出自動補足未知值的 Smart Autofill

Google 的試算表軟體 Google Sheets,日前推出可利用機器學習(machine learning)自動填補未知值的套件:Smart Autofill(新聞:TechCrunch | 36kr)。

數據遺失missing data)是資料處理常見的問題,在分析時通常處理的方式有兩種:這筆資料不列入分析,或是填上一個合理的值(imputation)。

當你手上的資料很多的時候,直接忽略這筆有缺失的資料,應該是可以承擔的損失;但有時候資料已經不多,或是這個數值的遺失本身就具有意義,這時候怎樣「正確的」補上資料,就很有實務上的價值。

一般填補遺失資料的方法有幾種:

  • 填上空白值(0 或 -1)
  • 填上平均值(或分組的平均值)
  • 用其他資料的數值來預測

Google 的文件裡並沒有說明 Smart  Autofill 使用的是哪一種方式,不過從文件裡的範例來看,應該是第三種,因為自動補值還會提供準確度或錯誤率的資訊,所以至少是用迴歸(regression)或其它統計模型來做預測。

這個功能解決了資料分析實務上很常見又令人頭疼的問題,雖然自動補值所使用的的統計模型沒有說明得很清楚,也沒有什麼參數可以調整,但是這已經比很多初階的資料分析員更「內行」了。

附帶分享一個從 Twitter 的資料裏學到的 imputation 技巧:如果欄位 X 有遺失值,除了補值之外,另外創造一個變數 X_missing,填入 0 或 1,來代表 X 這一欄是否有 missing,這樣既可以正常使用 X 這個欄位,又可以保留 X 是否遺失額外的意義(一個人的發言裡髒話多少,跟是否從來沒有出現過髒話,意義是不一樣的)。雖然這樣一來變數的數量會多一倍,但「寬資料」正是 Big Data 時代為我們從資料中尋找洞見的新契機。


沒有留言: